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摘要 : [目的 /意义 ] 词汇 链 文本 表示 方法 是 一 种 通过 词汇 链 对 语 篇 中 的 词汇 衔接 关系 进行 建 模 的 文本 
表示 方法 ， 该 方法 能 够 体现 语 篇 中 丰富 的 语义 信息 ， 在 自动 摘要 、 文 本 切 分 等 领域 得 到 广泛 应 用 。 [ 方法 
/ 过程] 对 词汇 链 相 关 研 究 论文 进行 收集 和 整理 ， 对 词汇 链 的 构建 方式 和 消 层 方法 进行 了 归纳 。 词 汇 衔接 
关系 的 计算 方法 包括 基于 语义 关联 的 计算 方法 、 基 于 统计 信息 的 计算 方法 和 基于 图 的 计算 方法 。 词 汇 链 构 
建 过 程 中 的 语义 消 歧 是 很 重要 的 过 程 ， 直 接 影 响 词汇 链 的 构建 结果 和 效率 。 [结果 /结论 ] 词汇 链 文本 表 
示 方法 结构 简单 、 应 用 范围 广泛 。 词 汇 链 文 本 表示 模型 还 存在 着 一 些 问题 ,如 使 用 词典 构建 存在 很 多 局 限 性 ， 
没有 完整 考虑 上 下 文 的 信息 等 。 未 来 词汇 链 模型 可 能 会 向 着 融合 语义 关系 方法 和 统计 算法 、 使 用 分 布 式 语 


义 加 强 对 上 下 文 分 析 等 方向 发 展 。 
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文本 表示 是 智能 情报 处 理 的 重要 环节 之 
一 ， 优 秀 的 文本 表示 模型 能 充分 日 真实 地 反映 
文本 的 内 容 ， 提 高 智能 情报 处 理 的 效果 。 词 汇 
链 文本 表示 模型 是 一 种 对 语 篇 中 的 词汇 衔接 
( lexical cohesion ) 关系 进行 建 模 的 文本 表示 模 
型 ， 能 够 体现 语 篇 中 丰富 的 语义 信息 。 词 汇 衔 
接 特性 最 早 由 英语 语言 学 家 M. A. K. Halliday 和 
R. Hasan 定义 趾 ， 指 的 是 一 段 语 篇 中 的 词 并 不 
是 随机 组 合 在 一 起 ， 而 是 围绕 一 个 主题 或 事情 
而 组 织 在 一 起 。 词 汇 衔接 关系 是 语 篇 的 表层 特 
性 ， 主 要 通过 语 篇 中 文本 单元 之 间 的 相关 性 来 


表现 , 相关 性 包括 词汇 的 复 现 现象 和 搭配 现象 。 
词汇 的 复 现 现象 指 词汇 之 间 的 语义 关联 ， 例 如 
同 义 、 近 义 、 上 下 位 、 整 体 - 部 分 关联 等 ， 词 汇 
的 搭配 现象 指 词 的 共 现 情况 ， 即 在 一 定 窗口 距 
离 内 或 某 种 语法 规则 下 词汇 共同 出 现 的 情况 中。 

词汇 链 指 的 是 语 篇 中 一 系列 概念 相关 的 词 
共同 组 成 的 词 序列 ， 词 汇 链 文本 表示 模型 将 文 
本 表示 为 几 个 包含 有 多 个 词 的 词汇 链 ， 每 个 词 
汇 链 中 的 词 通过 词汇 衔接 关系 联系 在 一 起 。 图 1 
为 一 段 文本 中 词汇 链 的 分 布 情况 ， 该 文本 包含 
两 条 词汇 链 : {sat down, rest, tired, fell asleep} 和 


{beech-tree, leaf, leaves} 。 
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词汇 链 能 构造 一 个 易于 理解 的 上 下 文 环 
境 ,， 有 助 于 确定 多 义 词 在 文本 中 的 具体 含义 ; 词 
汇 链 能 为 文本 结构 以 及 文本 一 致 性 提供 线索 , 有 
助 于 理解 文本 的 大 意 。 词 汇 链 可 以 被 看 作 是 一 
段 语 篇 的 标志 性 主题 词语 链 ， 这 些 词 共同 表达 
了 同一 件 事情 或 意思 ， 确 定 了 词汇 链 就 能 确定 
一 段 语 篇 的 文本 结构 等 。 词 汇 链 文本 表示 模型 
使 用 广泛 ， 不 仅 可 有 效 呈 现 文本 中 的 词汇 衔接 
关系 ， 其 多 种 特征 也 可 用 于 关键 词 抽取 、 文 本 
切 分 等 ， 例 如 词汇 链 的 长 度 可 以 反映 相关 主题 
在 文本 中 的 覆盖 范围 ， 词 汇 链 的 密度 可 以 体现 
语 篇 中 相关 主题 的 延续 性 ， 词 汇 链 中 词 的 分 布 
可 以 体现 相关 主题 的 分 布 情况 等 。 本 文 主 要 
对 词汇 链 的 构建 过 程 和 构建 方法 进行 研究 和 归 
纳 ， 分 析 各 种 词汇 链 构建 方法 的 特点 并 进行 归 
类 ， 通 过 对 比 总 结 出 各 种 方法 的 优 缺 点 ， 并 探 


Jan sat down to rest at the foot of a huge |beech-treel Now he was so tired 
that he soon fell asleep; and a fell on him, and then another, and then 
another, and before long he was covered all over with yellow, 


图 1 文本 中 词 ; 
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[ 链 分 布 样 例 
讨 相 关 领 域 未 来 的 研究 方向 。 
O 语汇 链 的 构建 过 程 

在 构建 词汇 链 之 前 ， 需 要 先 对 语 篇 进行 
预 处 理 ， 包 括 词 性 处 理 、 停 用 词 处 理 等 ， 形 
成 候选 词 列 表 。 然 后 依照 候选 词 出 现 的 顺序 
对 候选 词 逐 一 进行 处 理 ， 先 判断 候选 词 a 是 
否 能 加 入 已 有 词汇 链 71。 判断 标准 是 看 候选 词 
和 词汇 链 中 的 词 是 否 有 足够 强 的 词汇 衔接 关 
A, Aa 和 现 有 词汇 链 的 关系 满足 条 件 ， 则 
加 入 ; 车 不 能 加 入 ， 则 新 建 一 个 词汇 链 并 将 
a 作为 词汇 链 的 第 一 个 词 。 该 步骤 完成 后 会 形 
成 多 个 词汇 链 ， 这 时 根据 具体 需要 ， 确 定 是 
否 执行 词汇 链 的 排序 、 筛 选 、 合 并 等 操作 ， 结 
果 即 为 最 终 的 词汇 链表 示 模 型 。 词 汇 链 的 构 
建 过 程 如 图 2 所 示 : 


ENAR 
筛选 、 合 并 ， 


1 
Dae i a er ne ae a 


司 汇 链 的 构建 流程 
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从 词汇 链 的 构建 流程 不 难看 出 ， 如 何 寻找 
并 计算 词汇 衔接 关系 是 词汇 链 构建 过 程 中 的 关 
键 步 又。 词汇 衔接 关系 分 为 简单 重复 、 复 杂 
复 、 简 单 释 义 、 复 杂 释 义 、 语 义 关联 和 非 词 重 
复 6 种 类 型 站 ,识别 的 难度 从 上 到 下 按 顺 序 逐 
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渐 增 加 ， 见 表 1。 词 典 中 通常 会 定义 一 些 语义 关 
联 ， 如 上 下 义 、 同 义 等 ， 可 以 体现 一 些 语言 
元 之 间 的 词汇 衔接 关系 ， 因 此 早期 的 词汇 链 构 
建 算法 通常 借助 词典 中 的 语义 关联 来 对 词汇 衔 
接 结构 进行 建 模 。 


表 1 词汇 衔接 关系 类 型 


类 型 定义 样 例 
简单 重复 词 的 简单 重复 ( 单 复数 ) bear/bears 
复杂 重复 有 相同 词根 的 两 个 词 的 重复 ， 但 是 词性 不 同 tre 
quoted/quotation 
简单 释义 。 一 个 词 可 以 替换 另 一 个 词 ， 并 且 含义 没有 改变 Matie 
writing/works 
hot/cold 
复杂 释义 ” 反 义 、 两 个 词 的 关联 可 以 推断 出 同 第 三 个 词 的 关联 nt 


上 义 词 ， 上 下 义 ， 


另外 ， 一 词 多 义 是 自然 语言 最 常见 的 特征 之 
一 ， 消 除 候选 词 的 歧义 是 词汇 链 构建 过 程 必 不 
可 少 的 步骤 ,语义 消 卜 的 结果 体现 了 自然 语言 
处 理 的 水 平 。 对 候选 词 进行 消 歧 可 贯穿 词汇 链 
构建 的 整个 过 程 ， 消 除 候选 词 歧义 时 机 的 选择 
将 影响 词汇 链 构 建 的 计算 复杂 度 和 难度 ， 同 时 
也 会 影响 词汇 链 构建 的 准确 率 。 

全 词汇 衔接 关系 计算 方法 
3.1 基于 语义 关联 的 计算 方法 

J. Morris 和 G. Hirst 首次 提出 词汇 链 算 法 时 
选择 了 罗 杰 词 由 (Roget’s Thesaurus ) ， 他 们 选 
用 了 词典 中 的 5 种 词 间 关系 来 计算 词汇 衔接 关 
A: Oir a 和 词 b 在 词典 中 有 相同 的 索引 号 ; Qa 
的 索引 号 所 指 问 的 分 类 有 指针 指向 b 的 索引 号 
所 指向 的 分 类 ; Ob 是 a 在 词典 中 的 标签 ; Oa 
Alb 在 同一 个 组 ; Ga 和 ob 的 索引 号 所 指向 的 
分 类 同时 有 指针 指向 另外 一 个 分 类 外 。5 种 关系 
的 优先 级 按 顺序 递减 。 

WordNet 词汇 数据 库 出 现 后 ， 


D. St-Onge 提 


人 称 代词 和 指示 代词 


teacher/teaching/instruction 
bear/animal 
scientist/biologists 
he,she,it,they,this, 
that,these,those 


出 了 贪 禁 算法 ， 利 用 WordNet 定义 超 强 、 较 强 
和 中 强 3 种 强度 的 词 间 关 系 用 来 计算 词汇 衔接 
关系 ， 实 现 了 词汇 链 的 自动 化 构建 5。 超 强 关 
系 指 某 一 词汇 和 该 词 在 后 文中 的 重复 关系 ， 不 
受 距离 限制 。 较 强 关系 的 窗口 距离 是 7 个 句 
F, 包括 3 种 情况 : 中 两 个 词 属于 同一 个 同 义 
WEA; @@ 两 个 词 所 属 的 同义词 集合 在 WordNet 
中 具有 水 平 的 层次 关系 ; @ 第 一 个 词 是 复合 词 
或 者 短语 ， 并 且 包 含 第 二 个 词 。 中 强 关系 的 窗 
口 距 离 不 超过 3 个 句子 ， 在 WordNet 树 形 结构 
中 的 关系 方向 变化 不 超过 1 次 ， 强 度 计算 公式 
为 weight = C- (路 径 长 度 ) - k* (方向 变化 的 次 
数 ) (C 和 k 是 经 验 常 数 ) ， 综 合 考虑 了 两 个 
词 在 WordNet 中 关系 的 路 径 长 度 和 语义 关联 的 
方向 变化 。 构建 词 汇 链 时 优先 采用 超 强 关系 ， 较 
强 关系 次 之 ， 中 强 关 系 根据 强度 由 强 至 弱 进行 
采用 。 

WordNet 是 通用 的 英语 词典 ， 自 动 化 词 
汇 链 构建 方法 多 数 选择 WordNet 来 进行 ， 但 
是 WordNet 对 英语 之 外 的 语言 及 特定 知识 领 
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SN AY) Te IL tk PE Se A BR, LI AR AR 
尝试 使 用 不 同 领域 的 专业 词典 或 其 他 语言 的 词 
典 来 计算 词汇 衔接 关系 。 在 生物 医学 领域 , L. 
Reeve 等 人 选用 了 美国 国家 医学 图 书馆 的 统一 医 
学 语言 系统 (Unified Medical Language System, 
UMLS ) ， 利 用 MetaMap 工具 将 候选 词 映射 为 
元 叙 词 表 (Metathesaurus ) 的 概念 ， 使 用 语义 网 
络 ( 定 义 了 135 种 语义 类 型 和 54 种 语义 关系 ) 来 
计算 概念 语义 类 型 之 间 的 关联 ， 从 而 构建 基于 
叙 词 表 概 念 的 词汇 链 趾 。 在 中 文 自然 语言 处 理 领 
域 ， 索 红 光 等 提出 利用 知 网 知识 库 来 构建 中 文 
词汇 链 的 方法 外 ,通过 两 个 词 在 HowNet 中 对 应 
的 两 个 义 原 所 有 义 项 的 基本 义 原 相似 度 、 其 他 
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典 质 量 体 现 了 专家 的 专业 水 准 ， 也 决定 了 所 构 
建 词汇 链 的 准确 率 。 故 此 ， 单 纯 采 用 基于 词典 
的 方法 构建 词汇 链 ， 会 遗失 很 多 原 语 篇 的 语义 
信息 ， 无 法 充分 反映 原 语 篇 的 特征 。 为 了 解决 
这 些 问题 ,一 些 人 研究 开始 融合 统计 语言 学 知 
识 ， 对 词汇 的 共 现 现象 进行 统计 学 分 析 ， 通 过 
计算 来 发 现 语言 单元 之 间 的 潜在 语义 关联 ， 从 
而 构建 词汇 链 。 
3.2 基于 统计 信息 的 计算 方法 

基于 统计 信息 的 词汇 链 构建 方法 主要 有 两 
类 : 第 一 类 是 对 语 料 进 行 统计 语言 学 分 析 形 成 
知识 库 ， 然 后 利用 知识 库 计 算 对 象 文 本 的 相似 
度 来 判断 词汇 衔接 关系 。 第 二 类 是 直接 利用 词 


基本 义 原 相似 度 、 关 系 义 原 相似 度 和 符号 义 原 
相似 度 等 特征 计算 两 个 词 的 相似 度 。 刘 端阳 等 
提出 了 基于 《同义词 词 林 》 语 义 词典 的 中 文 词 
汇 链 构 建 方法 钻 ， 首 先 使 用 候选 词 和 词 林 中 的 
释义 在 文本 中 的 共 现 频率 对 多 义 词 进行 消 牙 , 然 
后 使 用 两 个 词 在 同义词 词 林 中 的 分 支 层 节 点 数 


汇 共 现 关系 ， 经 过 一 定 的 变换 来 计算 语言 单元 
之 间 的 相似 度 , 作为 识别 词汇 衔接 关系 的 基础 。 

第 一 类 方法 主要 是 通过 大 规模 的 语 料 分 
析 ， 对 语 料 中 词汇 共 现 的 情况 进行 统计 、 分 析 
和 计算 ， 形 成 共 现 关系 知识 库 ， 从 而 进行 词汇 
链 构 建 。G. Dias 等 提出 一 种 与 语言 无 关 的 基 


量 和 分 文 间 的 距离 来 计算 相似 度 。 宋 培 彦 等 提 
出 了 基于 概念 层次 网 络 (hierarchical network 
ofconcepts, HNC ) 的 中 文 词汇 链 构 建 方法 ， 利 
用 概念 层次 网 络 中 两 个 词义 的 重合 度 来 计算 两 
个 词 的 语义 相关 度 "。 在 德语 自然 语言 处 理 领 
H, I. Cramer 等 抽取 GermaNet 中 的 上 位 类 关系 
形成 上 下 位 类 树 ， 利 用 两 个 词 在 上 下 位 类 树 中 
的 最 短路 径 、 绝 对 深度 、 词 频 等 特征 ， 用 多 达 8 
种 算法 来 计算 词 间 的 语义 关联 "1。 

以 词典 为 工具 的 词汇 链 构 建 方法 易于 理 
解 、 便 于 实施 ， 在 词汇 链 构 建 过程 中 得 到 了 最 
广泛 的 应 用 ,但 词典 本 身 也 有 一 些 明 显 的 缺 
点 : 中 词典 的 收录 范围 都 有 一 定 的 限制 ， 这 种 
限制 可 能 是 语言 方面 的 也 可 能 是 领域 范围 的 , 还 
有 一 些 新 出 现 的 词汇 受到 词典 更 新 频率 的 限制 
也 可 能 未 及 时 被 收录 ,词典 未 收录 的 词汇 必然 
无 法 计算 其 语义 关联 ; @ 除 了 体现 在 词典 中 的 
语义 关系 之 外 ， 词 汇 之 间 还 有 一 些 潜在 的 语义 
关联 ， 如 词汇 的 同 现 关系 ， 无 法 通过 词典 来 获 
取 ; @@ 词 典 都 是 专家 通过 领域 知识 来 编制 的 ， 词 


于 动态 知识 库 的 方法 来 计算 候选 词 相似 度 ， 先 
计算 语 料 中 文本 单元 的 上 下 文 相 似 度 矩阵 ， 并 
将 其 作为 初始 参数 输入 基于 极 的 重 琶 聚 类 算法 
( pole-based overlapping clustering algorithm ) 对 
和 矩阵 进行 聚 类 ， 形 成 一 个 可 以 揭示 类 别 之 间 语 
义 关 联 的 知识 库 ， 然 后 利用 知识 库 中 语言 单元 
之 间 的 关联 来 计算 词汇 衔接 关系 "。M. Marathe 
等 使 用 概念 距离 的 分 布 式 测量 (distributional 
measures of concept distance ) 方法 来 计算 候选 词 
与 现 有 词汇 链 以 及 词汇 链 之 间 的 语义 距离 ， 作 
为 词汇 衔接 关系 的 表现 "。 概 念 距离 的 分 布 式 
测量 是 一 种 融合 了 词典 语义 关系 和 词汇 共 现 的 
计算 方法 ， 使 用 该 方法 进行 自动 文本 切 分 ， 能 
获得 比较 优化 的 结果 。 
第 二 类 方法 直接 使 用 目标 语 篇 中 的 词汇 
共 现 情况 来 计算 候选 词 之 间 的 词汇 搭配 关系 。 
S. Remus 等 使 用 了 3 种 LDA (latentDirichlet 
allocation ) 概率 主题 模型 来 计算 候选 词 的 语义 
相似 度 ， 将 概率 分 布 于 同一 个 主题 的 词 归 于 同 
一 个 词汇 链 中 。 叶 春 荤 等 使 用 领域 关键 词 作为 
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词汇 链 的 初始 词 ， 通 过 计算 候选 词 与 领域 关键 
词 的 E 指数 来 判断 是 否 将 候选 词 加 入 词汇 链 。E 
指数 是 一 种 基于 同 段 共 现 分 析 的 关联 度 计 算 指 
标 ， 用 来 分 析 词 语 之 间 的 语义 关联 强度 "。 

基于 语义 关联 的 计算 和 基于 统计 信息 的 
计算 从 两 个 角度 来 计算 词汇 衔接 关系 ， 无 法 直 
接 比 较 其 效果 的 优 劣 。 从 计算 复杂 度 来 说 ， 基 
于 词典 的 语义 关联 的 计算 方法 复杂 度 较 低 ， 准 
确 性 较 高 ， 但 是 受到 词典 本 身 缺 点 的 影响 ， 可 
能 丢失 一 些 语 义 特 征 。 基 于 大 规模 统计 分 析 的 
计算 方法 能 探测 到 两 个 术语 之 间 的 潜在 语义 关 
联 ， 可 以 弥补 基于 语义 关联 的 构建 方法 在 该 方 
面 存在 的 不 足 。 基 于 词汇 共 现 的 计算 方法 可 以 
探测 到 单 篇 文档 中 的 术语 之 间 的 特殊 语义 关 
联 ， 这 对 基于 大 规模 统计 分 析 的 计算 方法 是 一 
个 补充 。 基 于 统计 信息 的 计算 方法 需要 大 量 的 
计算 同时 知识 库 的 构建 需要 大 量 语 料 的 支 
持 , 计算 复杂 度 要 远 高 于 基于 语义 关联 的 方法 。 
3.3 基于 图 的 计算 方法 

最 早 的 词汇 链 构 建 方法 都 是 依照 候选 词 出 
现 的 顺序 来 构建 词汇 链 ， 例如 J. Morris 和 G. 
Hirst 的 词汇 链 构建 算法 号 、 贪 焚 算 法 "9 A R. 
Barzilay 等 提出 的 非 贪 禁 算 法 "等 。 顺序 构 建 
词汇 链 的 问题 在 于 ， 处 理 候选 词 时 只 能 计算 该 
词 与 已 处 理 的 候选 词 之 间 的 关系 ， 无 法 计算 该 
词 与 其 后 出 现 的 候选 词 之 间 的 关系 ， 然 而 相同 
的 候选 词 集合 如 果 以 不 同 顺序 进行 处 理 ， 可 能 
会 得 到 不 同 的 结果 ， 从 而 影响 词汇 链 构 建 的 准 
确 性 。 基 于 图 的 构建 方式 是 将 所 有 的 候选 词 取 
出 ,分别 计算 每 对 候选 词 之 间 的 语义 关联 ， 形 
成 图 结构 ， 然 后 使 用 图 聚 类 等 算法 ， 对 图 中 的 
边 进行 消减 ， 从 而 形成 最 终 的 词汇 链 。 

O.MEDELYAN 提出 用 图 聚 类 的 方法 来 构 
造 词汇 链 号 ， 先 顺序 处 理 每 个 候选 词 ， 如 果 候 
选 词 可 以 加 入 多 个 词汇 链 ， 则 将 这 些 词汇 链 合 
并 。 将 所 有 词汇 链 转 化 为 图 后 ， 将 图 中 最 长 的 
任意 两 点 间 的 最 小 路 径 距 离 定 义 为 图 标 度 ( graph 
diameter) ， 对 于 图 标 度 大 于 3 的 弱 链 ， 利 用 图 
聚 类 的 方法 来 识别 弱 链 中 的 高 凝聚 子 图 作为 计 
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算 结 果 ， 图 标 度 小 于 3 的 链 可 以 直接 作为 计算 
结果 。S. KATIYAR 等 也 提出 了 一 种 基于 图 的 词 
汇 链 构 建 方法 ""， 首 先 将 候选 词 作为 顶点 构建 
一 个 图 ， 图 的 边 及 权重 通过 候选 词 之 间 的 关系 
强度 来 计算 ,候选 词 之 间 的 关系 强度 则 由 它们 
在 WordNet 分 类 法 中 的 距离 决定 。 图 构建 完成 
后 ， 对 每 个 顶点 vi 将 图 中 所 有 和 vi 相连 的 顶点 
加 入 列表 Wi， 对 Wi 中 的 每 个 候选 词 w;， 计 算 
wi 同 Wi 中 其 他 候选 词 的 语义 关联 强度 ， 并 将 这 
些 强度 相 加 作为 三 元 组 <viwi ,Score> 中 的 权重 。 
计算 完成 后 ， 各 顶点 与 图 中 关联 关系 最 多 的 顶 
点 之 间 的 关系 会 更 强 ， 确 保 各 顶点 的 准确 语义 
得 到 更 多 的 体现 。 将 计算 完 的 图 分 解 为 不 相交 
的 最 长 子 链 ， 即 不 重复 的 子 图 ， 则 得 到 最 终 的 
词汇 链 。 

基于 图 的 词汇 链 构建 过 程 不 考虑 候选 词 的 
顺序 关系 ， 将 所 有 候选 词 之 间 的 相互 关系 映射 
为 加 权 图 ， 再 利用 图 聚 类 等 算法 筛选 满足 设 定 
条 件 的 词汇 关系 ， 形 成 最 终 的 词汇 链 文本 表示 
模型 。 基 于 图 的 词汇 链 构 建 能 发 现 顺序 构建 方 
法 可 能 丢失 的 语义 ， 也 尽 可 能 通过 上 下 文 语义 
去 消减 可 能 造成 的 歧义 , 但 是 仍然 可 能 会 造成 
对 文本 的 错误 表示 。 
全 词汇 链 构 建 中 的 语义 消 歧 

多 义 词 是 自然 语言 中 常见 的 现象 ， 在 词汇 
链 构 建 过 程 中 ， 如 果 可 以 为 多 义 词 选择 准确 的 
含义 消除 歧义 ， 必 然 会 提高 词汇 链 构建 的 准确 
率 ， 降 低 词汇 链 构建 的 复杂 度 。 语 义 消 歧 根 据 
其 在 词汇 链 构建 过 程 中 的 时 机 ， 可 以 分 为 提前 
消 靶 、 构 建 时 消 歧 和 构建 后 消 歧 。 
4.1 提前 消 歧 

提前 消 歧 指 的 是 在 构建 词汇 链 之 前 ， 对 候选 
词 进行 消 歧 ， 确 定 候选 词 合 义 。CHAD 算法 
采用 了 提前 消 皮 的 策略 ， 主 要 思路 是 在 有 序 相 
邻 的 3 个 词 中 ， 如 果 第 一 、 二 个 词 的 含义 已 确 
定 ， 则 第 三 个 词 的 含义 可 以 通过 计算 来 确定 。 
利用 CHAD 算法 可 以 侦 测 到 文本 中 词义 连续 的 
停滞 状态 ， 即 若 相 邻 的 两 个 词 的 含义 完全 没有 
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相交 ， 此 时 词汇 衔接 现象 就 会 停止 。FE.Y YE 等 
人 的 提前 消 疏 算法 综合 考虑 了 窗口 长 度 和 关系 
强度 ， 和 针对 候选 词 的 每 种 词义 ,计算 长 度 为 6 
的 窗口 距离 中 所 有 候选 词 与 该 词 的 关联 强度 总 
和 和， 选择 关联 强度 总 和 最 大 的 词义 作为 该 候选 
词 的 词义 ， 从 而 达到 消 歧 的 目的 中。 
4.2 构建 时 消 歧 

构建 时 消 歧 指 构建 词汇 链 时 ， 同 时 判断 
用 选 词 词义 和 候选 词 的 词汇 链 归 属 ， 是 词汇 链 
计算 中 较为 第 用 的 消 歧 方 法 。 在 判断 词汇 链 归 
属 时 ， 计 算 候选 词 所 有 词义 同 所 有 词汇 链 的 关 
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使 用 同一 个 含义 。 

提前 消 攻 是 在 词汇 链 构建 之 前 即 对 候选 词 
赋予 明确 的 词义 ， 这 大 大 降低 了 词汇 链 构建 的 
计算 复杂 度 ， 但 是 词汇 链 构建 的 效果 完全 取决 
于 消 攻 所 使 用 的 算法 ， 如 果 消 靶 所 使 用 的 算法 
效果 不 其 理想 ， 会 导致 候选 词 词义 错误 ， 形 成 
的 词汇 链 质 量 不 高 。 构 建 时 消 歧 需要 在 构建 词 
汇 链 的 同时 考虑 候选 词 的 上 下 文 确定 候选 词 的 
词义 ， 计 算 复 杂 度 较 高 ， 但 是 由 于 可 以 动态 联 
系 上 下 文 进行 消 卜 ， 消 疏 的 准确 性 较 好 。 随 后 
消 疏 相对 于 构建 时 消 卜 ， 可 以 更 全 面 考虑 候选 


系 ， 从 中 选择 满足 条 件 的 词义 作为 候选 词 的 词 
义 并 加 入 相应 的 词汇 链 ， 选 择 词义 时 可 以 考虑 
同 某 个 词汇 链 关 联 最 多 的 词义 ,也 可 以 考虑 加 
权 语 义 关 联 最 大 的 词义 。 非 贪 禁 算 法 采用 的 是 
构建 时 消 歧 ， 先 从 WordNet 词汇 数据 库 中 抽取 
候选 词 的 多 个 词义 ， 选 择 与 词汇 链 中 其 他 成 员 
间 的 语义 关系 数量 最 多 的 词义 作为 该 候选 词 的 
词义 ， 并 计算 该 词义 与 词汇 链 中 成 员 的 语义 关 
联 的 权 值 ， 作 为 词汇 衔接 关系 的 权 值 ， 用 于 判 
断 是 否 将 候选 词 加 入 词汇 链 "1。 
4.3 Baia 

随后 消 卜 指 的 是 ， 在 构建 词汇 链 的 过 程 中 
保留 所 有 可 能 语义 形成 的 词汇 链 作 为 候选 链 , 在 
词汇 链 构 建 完 之 后 ， 依 据 某 种 条 件 对 所 有 的 链 
实施 二 次 处 理 进 行 消 靶 。 元 链 (metachain ) 算 
法 采用 了 随后 消 歧 的 方法 人， 先 将 WordNet 
词汇 数据 库 进 行 扁平 化 处 理 ， 抽 取 所 有 的 词义 
作为 每 个 元 链 的 开头 词义 ， 对 WordNet 中 的 语 
义 关 系 赋 予 权 值 并 进行 词汇 链 构 建 ， 构 建 完 的 
元 链 结果 列 出 了 文本 所 有 可 能 的 语义 解释 。 随 
后 对 元 链 进行 盘 选 ， 只 选择 每 个 候选 词 所 有 词 
义 中 对 所 在 词汇 链 的 语义 权重 贡献 最 大 的 词汇 
链 进 行 保留 ， 同 时 从 其 他 词汇 链 中 删除 该 词 ， 剩 
下 的 词汇 链 作为 最 终结 果 。M.Galley 等 延续 
了 基于 元 链 的 词汇 链 构 建 思路 ,使 用 “一 词 一 
X” (one sense per course ) 的 方法 进行 消 歧 ， 即 
假设 每 个 词 在 一 个 语 篇 中 只 有 一 个 含义 ， 当 含 
义 确 定时 ， 词 汇 链 中 所 有 的 同一 个 词 的 实例 都 


词 的 上 下 文 情况 ， 但 是 需要 计算 所 有 候选 词 的 
每 种 词义 所 产生 的 效果 ， 因 此 其 计算 复杂 度 是 
最 高 的 。 

全 相关 研究 评述 

以 上 对 词汇 链 构 建 过 程 中 的 词 衔接 关系 计 
算 和 消 歧 方法 进行 了 归纳 。 可 以 发 现 ， 词 汇 链 
可 以 有 效 地 识别 文本 中 词 衔接 关联 的 延续 性 。 
目前 词汇 链 构 建 方法 中 还 有 一 些 不 足 ， 需 要 进 
一 步 研 究 解决 。 

(1) 基于 词典 的 方法 有 一 些 不 足 ， 应 尝试 
融合 基于 统计 信息 和 基于 词典 的 方法 进行 词汇 
链 的 构建 。 通 过 词典 中 的 语义 关系 来 构建 词汇 
链 有 很 多 不 足 : 第 一 ， 基 于 词典 的 方法 对 于 词 
典 的 依赖 性 很 强 ， 词 典 的 语种 、 质 量 、 更 新 频 
率 等 都 会 影响 词汇 链 的 构建 。 第 二 ， 词 典 无 法 
识别 候选 词 之 间 的 潜在 关联 。 语 言 的 发 展 很 迅 
速 ， 词 典 由 于 需要 人 工 来 维护 ， 始 终 落 后 于 语 
言 发 展 ， 一 些 新 的 关联 可 能 无 法 及 时 收录 。 第 
三 ， 如 果 词 典 中 无 法 查 到 某 些 候选 词 ， 那 么 在 
构建 词汇 链 时 ， 只 好 抛弃 这 些 候选 词 。 第 四 ， 词 
汇 衔接 关系 包括 基于 语义 关联 的 词 复 现 关系 和 
基于 共 现 的 词汇 搭配 关系 ， 单 一 使 用 基于 语义 
关联 或 者 基于 统计 信息 的 算法 都 可 能 造成 衔接 
关系 识别 的 不 完整 。 基 于 统计 的 方法 可 以 识别 
一 些 候选 词 之 间 的 潜在 关联 ， 也 可 以 探测 候选 
词 之 间 的 搭配 关系 。 可 见 ， 基 于 词典 的 方法 和 
基于 统计 信息 的 方法 可 以 相互 补充 。 尝 试 融合 
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基于 词典 的 方法 和 基于 统计 信息 的 方法 ， 尽 可 
能 完整 地 计算 词 衔接 关系 ， 应 是 词汇 链 构建 的 
主要 研究 方向 之 一 。 

(2) 词汇 链 构 建 过 程 中 ， 对 候选 词 上 
下 文 的 考虑 不 够 ， 可 以 尝试 使 用 分 布 式 语 义 
( distributional semantics ) 模型 等 方法 ， 充 分 考 
虑 上 下 文 对 候选 词 含 义 的 影响 。 现 有 的 词汇 链 
构建 算法 多 采用 名 词 作为 候选 词 , 但 是 动词 、 形 
容 词 等 其 他 词性 的 词 也 存在 词汇 衔接 关系 ， 对 
语 篇 的 语义 有 一 定 的 指示 作用 ， 对 周围 的 候选 
词 的 含义 也 有 影响 ， 忽 略 了 这 部 分 关联 可 能 会 
造成 文本 表示 模型 对 原 语 篇 的 误解 。 一 些 研究 
者 开始 尝试 采用 动词 、 形 容 词 和 副词 作为 候选 
fa] PO") EER ik Ee AR EE BCH 
境 来 考虑 。 分 布 式 语义 模型 的 基本 思想 是 通过 
大 量 语 料 训练 ， 掌 握 术 语 与 上 下 文中 其 他 词汇 
的 共 现 关系 ， 并 以 此 作为 术语 常用 上 下 文 信 
息 ， 通 过 对 比 术语 的 上 下 文 信息 ,来 判断 术语 
之 间 的 关联 强度 中。 因此 ， 可 以 尝试 研究 候选 
词 和 上 下 文中 的 形容 词 、 副 词 等 词性 的 词 的 分 
布 式 语义 关系 ， 用 于 构建 词汇 链 ， 提 升 候 选 词 
的 消 下 效果， 增强 对 词 则 中 没有 收录 的 词 的 识 
别 效 果 。 

(3 ) 对 于 开头 词 的 选择 还 需要 进行 深入 人 研 
究 。 在 顺序 构建 词汇 链 的 方法 中 ， 词 汇 链 开头 
词 的 选取 会 对 词汇 链 的 构建 产生 深远 的 影响 ,如 
果 语 篇 的 第 一 个 词 和 语 篇 所 要 表达 的 主题 关系 
不 大 其 至 无 关 ， 在 顺序 处 理 候选 词 时 ， 可 能 会 
造成 候选 词 的 消 歧 错误 ， 导 致词 汇 链 构建 不 准 
确 。 元 链 算法 中 尝试 将 WordNet 展开 作为 词汇 
链 的 开头 词 ， 但 是 算法 过 于 复杂 。 在 词汇 链 构 
建 中 ， 可 以 考虑 通过 统计 信息 选择 词 频 较 高 的 
非 停 用 词 作为 词汇 链 的 开头 词 ， 在 提高 词汇 链 
构建 效果 的 基础 上 ， 减 少 计算 复 杂 度 。 


全 结语 


本 文通 过 对 现 有 相关 文献 进行 调研 梳理 , 将 
词汇 链 构建 方法 和 计算 过 程 中 的 消 歧 方法 进行 
分 类 ,分别 对 其 优 缺 点 进行 分 析 和 比较 ， 阐 述 
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了 词汇 链 构建 在 未 来 的 研究 及 应 用 中 的 发 展 方 
向 。 词 汇 链 文本 表示 方法 结构 简单 ， 应 用 范围 
广泛 ， 除 了 文本 切 分 、 自 动 摘 要 等 领域 外 ， 词 
汇 链 还 可 以 应 用 于 文本 过 滤 ""、 自 动 问答 "、 拼 
写 错误 识别 中 和 情感 识别 中 等 领域 ,是 值得 
深入 研究 的 文本 表示 方法 。 随 着 研究 进一步 加 
深 ， 词 汇 链 文本 表示 模型 将 会 得 到 更 广泛 的 应 
用 。 
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Abstract: [Purpose/significance] Text representation is an important step in intelligence processing. 
An excellent text representation model can reflect the document content precisely and sufficiently. Besides, 
it can improve the processing effect. It can be broadly applied in the fields of automatic abstracting and 
text segmentation. [Method/process] In this article, we collected the related documents and analyzed 
them. The construction methods and disambiguation in the lexical chain computing were classified and 
concluded. The computing method of the lexical chain relation included the computing method based on 
semantic association, the computing method based on statistical information and the computing method 
based on charts. The semantic disambiguation was important in the construction of the lexical chain, which 
directly affected the results and efficiency of the lexical chain construction. [Result/conclusion] The lexical 
chain text representation can be easily constructed and broadly applied. There are still some problems in 
the text representation model of the lexical chain. For example, there are many limitations to construct it 
by dictionaries, which does not take the context into consideration. The lexical chain model will possibly 
develop towards the fusion semantic relation method, the statistical algorithm and the context analysis of 
distributed semantics in the future. 
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